17 research outputs found

    Distributed Processing of Generalized Graph-Pattern Queries in SPARQL 1.1

    Get PDF
    We propose an efficient and scalable architecture for processing generalized graph-pattern queries as they are specified by the current W3C recommendation of the SPARQL 1.1 "Query Language" component. Specifically, the class of queries we consider consists of sets of SPARQL triple patterns with labeled property paths. From a relational perspective, this class resolves to conjunctive queries of relational joins with additional graph-reachability predicates. For the scalable, i.e., distributed, processing of this kind of queries over very large RDF collections, we develop a suitable partitioning and indexing scheme, which allows us to shard the RDF triples over an entire cluster of compute nodes and to process an incoming SPARQL query over all of the relevant graph partitions (and thus compute nodes) in parallel. Unlike most prior works in this field, we specifically aim at the unified optimization and distributed processing of queries consisting of both relational joins and graph-reachability predicates. All communication among the compute nodes is established via a proprietary, asynchronous communication protocol based on the Message Passing Interface

    Distributed Set Reachability

    Get PDF

    XATU: A Fine-grained Instruction-based Benchmark for Explainable Text Updates

    Full text link
    Text editing is a crucial task that involves modifying text to better align with user intents. However, existing text editing benchmark datasets have limitations in providing only coarse-grained instructions. Consequently, although the edited output may seem reasonable, it often deviates from the intended changes outlined in the gold reference, resulting in low evaluation scores. To comprehensively investigate the text editing capabilities of large language models, this paper introduces XATU, the first benchmark specifically designed for fine-grained instruction-based explainable text editing. XATU covers a wide range of topics and text types, incorporating lexical, syntactic, semantic, and knowledge-intensive edits. To enhance interpretability, we leverage high-quality data sources and human annotation, resulting in a benchmark that includes fine-grained instructions and gold-standard edit explanations. By evaluating existing open and closed large language models against our benchmark, we demonstrate the effectiveness of instruction tuning and the impact of underlying architecture across various editing tasks. Furthermore, extensive experimentation reveals the significant role of explanations in fine-tuning language models for text editing tasks. The benchmark will be open-sourced to support reproduction and facilitate future research.Comment: Work in progres

    Verteiltes Abfragen von groĂźen markierten Graphen

    No full text
    Graph is a vital abstract data type that has profound significance in several applications. Because of its versitality, graphs have been adapted into several different forms and one such adaption with many practical applications is the “Labeled Graph”, where vertices and edges are labeled. An enormous research effort has been invested in to the task of managing and querying graphs, yet a lot challenges are left unsolved. In this thesis, we advance the state-of-the-art for the following query models, and propose a distributed solution to process them in an efficient and scalable manner. • Set Reachability. We formalize and investigate a generalization of the basic notion of reachability, called set reachability. Set reachability deals with finding all reachable pairs for a given source and target sets. We present a non-iterative distributed solution that takes only a single round of communication for any set reachability query. This is achieved by precomputation, replication, and indexing of partial reachabilities among the boundary vertices. • Basic Graph Patterns (BGP). Supported by majority of query languages, BGP queries are a common mode of querying knowledge graphs, biological datasets, etc. We present a novel distributed architecture that relies on the concepts of asynchronous executions, join-ahead pruning, and a multi-threaded query processing framework to process BGP queries in an efficient and scalable manner. • Generalized Graph Patterns (GGP). These queries combine the semantics of pattern matching and navigational queries, and are popular in scenarios where the schema of an underlying graph is either unknown or partially known. We present a distributed solution with bimodal indexing layout that individually support efficient processing of BGP queries and navigational queries. Furthermore, we design a unified query optimizer and a processor to efficiently process GGP queries and also in a scalable manner. To this end, we propose a prototype distributed engine, coined “TriAD” (Triple Asynchronous and Distributed) that supports all the aforementioned query models. We also provide a detailed empirical evaluation of TriAD in comparison to several state-of-the-art systems over multiple real-world and synthetic datasets.Graphenorientierte Datenmodelle haben in den vergangenen Jahren zunehmend an Relevanz im Bereich der Datenverarbeitung mittels moderner Informationssysteme gewonnen. Eine sehr vielseitige, allgemeine Form der graphenorientierten Repräsentation von Datenobjekten und deren Beziehungen zueinander bieten sogenannte „beschriftete Graphen“, in denen sowohl die Knoten als auch die Kanten zwischen den Datenobjekten Beschriftungen tragen. Wegen der enorm vielseitigen Anwendbarkeit dieser graphenorientierten Datenmodelle beschäftigt sich eine große Anzahl aktueller Forschungsarbeiten insbesondere mit der verteilten Verarbeitung und Anfragebearbeitung von großen Graphdatensätzen. Dennoch bleiben viele Herausforderungen gerade bezüglich der Effizienz und der Skalierbarkeit dieser Ansätze weiterhin offen. Die vorliegende Dissertation erweitert die aktuellen Forschungsergebnisse für die folgenden Anfragemodelle auf großen, beschrifteten Graphen. • Verteilte Mengenerreichbarkeit. Auf Basis des bekannten Erreichbarkeitsproblems in gerichteten, beschrifteten Graphen formulieren wir eine Verallgemeinerung dieses Problems, welches wir als „verteilte Mengenerreichbarkeit“ bezeichnen. Mengenerreichbarkeit bezeichnet das Erreichbarkeitsproblem für Mengen von Quell- und Zielknoten, zwischen denen wir alle Paare von Quell- und Zielknoten, die jeweils im zu Grunde liegenden Datengraphen erreichbar sind, suchen. Im Gegensatz zu bestehenden Ansätzen zur Anfrageauswertung auf verteilten Graphen präsentieren wir einen nicht-iterativen Lösungsansatz, der nur einen einzigen Kommunikationsschritt zwischen allen Rechenknoten in einem Rechnerverbund benötigt. Diese Garantie gilt für beliebige Graphen und Mengenerreichbarkeitsanfragen und wird durch eine Kombination aus Vorausberechnungen, Replikation und Indexierung der partiellen Erreichbarkeitseigenschaften des partitionierten Datengraphen erreicht. • Einfache Graphenmuster. Anfragen mit sogenannten „einfachen Graphenmustern“ werden von einer Reihe aktueller Anfragesprachen unterstützt und bilden die häufigste Form von Anfragen in semantischen Graphen, biologischen Datensätzen und vielen weiteren Formen von graphenorientierten Daten. Zur effizienten und skalierbaren Auswertung dieser Form von Anfragen präsentieren wir eine neuartige, verteilte Architektur, die verschiedene Konzepte der Optimierung von Ausführungsplänen innerhalb eines Rechnerverbundes, der parallelen Ausführung dieser Ausführungspläne innerhalb eines jeden Rechenknotens, sowie der asynchronen Kommunikation zwischen den Rechenknoten miteinander verbindet. • Verallgemeinerte Graphenmuster. Diese Form der Anfragen kombinieren einfache Graphenmuster mit zusätzlichen Navigationsbedingungen, die in Form von regulären Ausdrücken zwischen den einfachen Graphenmustern vorliegen. Diese Anfragen kommen insbesondere dann zum Einsatz, wenn das Schema des zu Grunde liegenden Datengraphen nicht oder nur teilweise bekannt ist. Zur verteilten Auswertung dieser verallgemeinerten Graphenmuster präsentieren wir eine Kombination unserer Indexstrukturen zur Auswertung einfacher Graphenmuster mit unseren Indexstrukturen zur Auswertung von Mengenerreichbarkeitsanfragen. Des Weiteren entwickeln wir einen einheitlichen Ansatz zur Optimierung und der – sowohl verteilten als auch parallelen – Auswertung von Anfragen mit verallgemeinerten Graphenmustern. Zusammenfassend stellt die vorliegende Dissertation die Architektur eines verteilten Prototypens (genannt „TriAD“ für „Triple-Asynchronous-Distributed“) zur effizienten und skalierbaren Auswertung der oben genannten Anfragen auf großen, beschrifteten Graphen vor. Des Weiteren präsentiert die Dissertation eine detaillierte, empirische Evaluation von TriAD im Vergleich zu einer Reihe aktueller Systeme auf großen Graphdatensätzen mit unterschiedlichen Eigenschaften

    On-line index maintenance using horizontal partitioning

    No full text
    In this paper, we propose a new merge-based index maintenance strategy for Information Retrieval systems. The new model is based on partitioning of the inverted index across the terms in it. We exploit the query log to partition the on-disk inverted index into two types of sub-indexes. Inverted lists of the terms contained in the queries that are frequently posed to the Information Retrieval systems are kept in one partition, called frequent-term index and the other inverted lists form another partition, called infrequentterm index. We use a lazy-merge strategy for maintaining infrequent-term sub-indexes, and an active merge strategy for maintaining frequent-term sub-indexes. The sub-indexes are also similarly split into frequent and in-frequent parts. Experimental results show that the proposed method improves both index maintenance performance and query performance compared to the existing merge-based strategies
    corecore